多模态识别

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手，拥有自然语言理解和多模态识别能力，支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外，Gemini Live还与谷歌的原生应用深度集成，提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

AI项目与工具 2025年06月12日 13 点赞 0 评论 908 浏览

3D

3D-Speaker是一个多模态开源项目，专注于通过结合声学、语义和视觉信息，实现高精度的说话人识别和语种识别。其主要功能包括说话人日志、说话人识别、语种识别、多模态识别以及重叠说话人检测。项目提供了工业级模型、训练与推理代码，以及多样化数据集，并支持复杂环境下的语音处理任务。应用场景涵盖会议记录、法庭记录、广播制作、电话客服和安全监控等领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 572 浏览

GOT-OCR2.0

创新的OCR模型，它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景，GOT-OCR 2.0都能提供强大的支持。

Ai平台模型 2026年06月27日 0 点赞 0 评论 601 浏览

GOT

创新的OCR模型，它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景，GOT-OCR 2.0都能提供强大的支持。

Ai平台模型 2026年06月27日 0 点赞 0 评论 356 浏览

多模态识别

首页

多模态识别

列表

默认

浏览次数

发布日期

Gemini Live

3D

GOT-OCR2.0

GOT

多模态识别 首页 多模态识别

列表 默认 浏览次数 发布日期

Gemini Live

3D

GOT-OCR2.0

GOT

多模态识别

首页

多模态识别

列表

默认

浏览次数

发布日期